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摘 要 : [目的 /意义 ] 从 计量 分 析 和 内 容 分 析 两 个 视角 对 科学 数据 集 的 使 用 特征 进行 研究 ,定量 化 评估 科学 数据 集 对 学 科 


发 展 的 影响 ,为 科学 数据 管理 服务 及 政策 研究 提供 参考 。[ 方 法 /过 程 ] 综合 运用 


本 挖掘 和 文献 计量 方法 对 


SC 
PubMed Central 的 全 文 文献 进行 分 析 , 从 时 间 分 布 . 使 用 强度 等 7 个 方面 全 面 考察 科学 数据 集 的 使 用 情况 ,并 在 此 
基础 上 评估 科学 数据 集 对 学 科 发 展 产 生 的 实际 影响 。| 结果 /结论 ] 研 究 结果 表明 ,科学 数据 集 对 生物 医学 领域 科 
研 产 生 的 影响 力 与 日 俱 增 , 数 据 出 版 和 高 水 平 期 刊 促进 了 科学 数据 集 的 开放 和 共享 ,科学 数据 集 的 使 用 集中 在 论 
T 文 的 后 半 部 分 且 正 式 引 用 较 少 ,相应 的 标准 规范 还 有 待 进一步 加 强 。 
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科学 数据 集 是 科研 活动 过 程 中 产生 或 经 过 再 加 工 
得 到 的 ,具有 一 定 规范 且 可 形成 完整 描述 的 数据 资料 
REIES m ,主要 类 型 包括 实验 数据 观测 数据 和 统计 
数据 等 ”。 随 着 开放 科学 运动 的 兴起 ,科学 数据 集 的 
基肥 和 重用 等 使 用 行为 变 得 日 益 普 裔 ,其 已 逐渐 成 为 
贯 卯 科研 全 过 程 的 重要 研究 对 象 和 产 出 类 型 之 一 。 对 
科 党 数据 集 使 用 特征 和 所 产生 的 影响 进行 研究 ,一 方 
面 上 四 以 了 解数 据 使 用 现状 、 掌 握 当 前 科研 人 员 对 数据 
的 需求 特征 和 利用 情况 ;为 一 方面 也 可 以 具象 并 量化 
科学 数据 集 对 科研 活动 的 实际 页 献 价 值 . 合 理 规划 科 
研 上 资源 配置 .丰富 科研 评价 指标 。 

当前 ,对 科学 数据 集 使 用 特征 的 研究 一 般 采 用 计 
量 分 析 或 内 容 分 析 的 方法 。 计 量 分 析 法 是 一 种 基于 数 
学 和 统计 学 ,以 各 种 知识 实体 的 外 部 特征 和 宏观 特征 
为 研究 对 象 的 定量 分 析 方 法 ”。 从 计量 分 析 角 度 出 
发 ,一 般 采 用 数据 集 被 引 频 次 、 使 用 下 载 量 \、 被 提 及 次 
数 等 指标 对 其 使 用 特征 和 影响 力 进 行 研究 评价 。C. 
W. Belter 等 ”以 海洋 学 领域 数据 集 为 研究 对 象 ,利用 
被 引 次 数 研 究 数 据 集 引 用 行为 并 对 数据 集 的 影响 力 进 
行 评 佑 。 焦 红 等 “运用 文献 计量 方法 从 多 维度 对 生物 


医学 领域 科学 数据 集 的 复 用 特征 规律 进行 研究 ,并 对 
高 频 复 用 数据 集 进行 了 详细 分 析 。 计 量 分 析 可 以 从 宏 
观 的 角度 对 学 科 领 域 科学 数据 集 的 使 用 情况 进行 分 
析 ,进而 度量 数据 集 对 整个 学 科 发 展 产生 的 影响 力 ;内 
容 分 析 法 则 深入 到 学 术 论 文 全 文本 内 容 层 面 ,通过 人 
工 判读 或 自然 语言 处 理 等 方法 研究 文献 内 隐 含 的 各 种 
知识 实体 的 使 用 行为 特征 ”。 从 内 容 分 析 角 度 出 发 ， 
一 般 通 过 数据 集 的 使 用 方式 .使 用 位 置 .使 用 强度 等 指 
标 研究 其 使 用 特征 和 影响 力 。 王 雪 等 “以 CNKI 中 10 
个 学 科 的 文献 为 研究 对 象 ,采用 内 容 分 析 法 从 数据 提 
及 方式 使 用 位 置 ,来源 类 型 等 角度 分 析 比 较 了 不 同学 
科 数 据 重 用 行为 的 特征 。 李 龙 飞 等 ”从 替代 计量 学 视 
角 出 发 ,以 地 球 系统 科学 数据 共享 平台 的 数据 集 为 研 
究 对 象 ,利用 内 容 分 析 方 法 对 科学 数据 集 使 用 方式 进 
行 研 究 并 定量 测度 其 价值 。 内 容 分 析 法 的 分 析 层 面 更 
加 微观 ,可 以 从 细 粒 度 的 文 草 结构 层面 研究 数据 集 使 
用 特征 及 影响 力 。 从 当前 相关 研究 的 现状 来 看 ,由 于 
科学 数据 集 使 用 特征 的 学 科 差异 性 较 大 文献 中 科学 
数据 集 信 息 难 以 识别 和 抽取 等 问题 ,对 科学 数据 集 使 
用 特征 和 产生 影响 的 研究 还 多 采用 人 工 标注 或 围绕 小 
范围 数据 开展 ,分 析 层 面 和 分 析 指 标 也 较为 宽泛 。 

本 研究 将 以 生物 医学 领域 大 规模 学 术 论 文集 作为 
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分 析 样 本 ,结合 计量 分 析 和 全 文本 内 容 分 析 方法 ,对 科 
学 数据 集 在 学 术 论 文中 的 使 用 特征 进行 综合 考察 和 分 
析 ,并 进一步 从 不 同 角 度 分 析 其 对 学 科 发 展 产 生 的 实 
际 影 响 。 本 研究 的 意义 在 于 ,以 全 学 科 领 域 论 文 作 为 
分 析 样 本 ,利用 规则 抽取 和 自然 语言 处 理 技术 ,从 宏观 
和 微观 多 个 层面 探讨 数据 集 的 使 用 特征 ,为 科学 数据 
管理 和 服务 提供 全 新 视角 的 参考 ,同时 也 为 后 续 人 研究 
提供 新 的 思路 。 


2 研究 方法 


2.1 基本 思路 
本 研究 全 文 数据 来 自 于 PubMed Central ( PMC) 开 


放 获 取 子 集 ,PMC 是 美国 国家 生物 技术 信息 中 心 NCBI 
( National Center for Biotechnology Information ) 提供 的 免 
费 生物 医学 期 刊 文献 全 文 数据 库 ”。 除 PMC 之 外 ， 
NCBI 还 提供 60 余 种 生物 医学 数据 库 以 及 相关 的 科研 
工具 ,并 且 通 过 不 同 格式 为 数据 库 中 的 科学 数据 集 分 
配 了 唯一 标识 符 一 一 登录 号 ( Accession Number)。 本 
文 将 利用 模式 匹配 的 方法 ,基于 自 定 义 规则 抽取 登录 
号 的 方式 ,在 全 文中 识别 并 获取 数据 集 的 提 及 信息 ,将 
其 作为 论文 对 数据 集 的 使 用 ,通过 计量 分 析 和 内 容 分 
析 两 个 维度 对 数据 集 使 用 特征 进行 分 析 , 并 归纳 总 结 
科学 数据 集 对 于 生物 医学 领域 科研 和 学 科 发 展 产生 的 
实际 影响 力 。 整 体 人 研究 思路 如 图 1 所 示 : 


科学 数据 集 
使 用 特征 分 析 


1 整体 研究 思路 


27088 数据 获取 

本 文通 过 PMC 提供 的 FTP 服务 批量 下 载 了 2021 
SH 25 日 前 的 文件 包 ,将 索引 文件 合并 后 获取 到 文 
献 葛 基本 信息 及 本 地 文件 位 置 ,PMC 全 文 数据 基于 
XM 格式 存储 ,采用 美国 国立 医学 图 书馆 (NLM ) 的 文 
件 类 型 定义 (DTD) 标 准 ”。 最 终 , 共 获取 到 3 219 908 
篇 全 文 文献 。 

科学 数据 集 的 识别 采用 基于 模式 匹配 的 方法 , 通 
过 正则 表达 式 在 全 文 文本 中 进行 抽取 。 由 于 NCBI 各 
数据 库 的 登录 号 规则 各 蜡 , 并 且 很 大 一 部 分 数据 库 的 
登录 号 由 纯 数 字 组 成 ,无 法 通过 模式 匹配 方法 进行 自 
动 抽取 。 因 此 ,本 文选 择 其 中 较为 常用 .格式 具备 一 定 
规范 并 且 在 系统 说 明 中 对 登录 号 规则 有 详细 描述 的 


CE0… RefSeq" , SRA'"' CDD 和 Assembly" 5 个 
数据 库 中 的 数据 集 作 为 研究 对 象 。 其 中 ,GEO 是 当前 
存储 规模 最 大 数据 最 全 面 的 基因 表达 数据 库 , 收 录 了 
世界 各 国 研究 者 提交 并 共享 的 基因 芯片 数据 和 高 通 量 
测序 数据 ;RefSeq 是 收录 基因 组 .转录 本 等 样本 信息 的 
参考 序列 数据 库 ,为 多 种 生物 提供 序列 的 数据 信息 及 
相关 资料 ;SRA 数据 库 主 要 存储 二 代 测 序 的 原始 数据 
以 及 与 其 相关 的 质 控 报告 ;CDD 是 和 蛋白 质保 守 结 构 域 
数据 库 , 收 集 了 大 量 保守 结构 域 序列 信息 和 和 蛋白 质 序 
列 信息 ;组 装 数据 库 Assembly 主要 提供 已 组 装 基因 组 
结构 、 相 关 元 数据 .组装 报告 等 信息 。 根 据 各 数据 库 登 
录 号 规则 构造 的 数据 集 正 则 表达 式 如 表 1 所 示 : 


表 1 科学 数据 集 登 录 号 示例 及 正则 表达 式 


数据 库 正则 表达 式 示例 
GEO G(?:SMISEIPLIDS) M + GSM22355 
RefSeq (?:ACIAPINCINGINRINTIXRINS), M16] L( 2: NMINPINWIXMIXPI YP). 4416] (?:\d{31)? 1(?:ZP. I NZ [ A- NP. 012448 
Z]141) M18] 
SRA SR[ PSXR ] 15,8] SRS30216 
CDD (?:[eC] (2:dl ll OGIHL) I[ pP] (2: HAILNITZI fam) IKOGI MTHITIGR | smart] LOAD. ) \d{4,5} ILOAD. ) \d{4,5) MTHI747 
Assembly ^ GC[AF]. M19] (?:[. ] Vo)? GCF. 000001735. 3 
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此 外 ,部 分 文献 还 存在 如 “GSE4357-GSE4380” 
“SRX001799 to SRX001808” 等 形式 的 数据 集 批量 使 用 
行为 ,需要 单独 构建 批量 抽取 规则 ,并 设置 最 大 抽取 阔 
值 为 500 ,超出 则 忽略 ,从 而 提取 出 批量 使 用 的 数据 集 
登录 写 。 最 终 经 过 识别 抽取 后 发 现 , 共 有 162 200 篇 文 
献 存 在 本 文 所 涉及 5 个 数据 库 中 数据 集 的 使 用 ,数据 
集 总 量 为 435 920 条 ,使 用 次 数 合 计 2 606 552 次 ,存在 
数据 集 使 用 行为 的 文献 数量 占 全 部 文献 数量 的 
5.0496 ,5 个 数据 库 中 被 论文 使 用 的 数据 集 数 量 分 布 
如 表 2 所 示 , 其 中 ,RefSeq 数据 库 中 有 238 023 条 数据 
集 被 使 用 , 约 占 总 量 的 55% ,说 明 该 数据 库 中 的 数据 
集 在 生物 医学 领域 得 到 了 较 多 的 关注 和 使 用 。 


表 2 5 个 数据 库 中 被 论文 使 用 的 数据 集 数 量 分 布 情况 


Api E GEO RefSeq SRA CDD Assembly 


238 023 86 144 13 549 11 624 


数量 /条 86 580 


2137 计量 分 析 指 标 
四 计量 分 析 利用 数据 集 及 使 用 数据 集 文 献 的 直接 指 
慰 地 行使 用 特征 分 析 , 包 括 时 间 分 布 .文献 类 型 .学科 
咎 布 和 高 频数 据 集 。 计 量 分 析 采 用 CountOne 方法 ” , 
将 对 一 数据 集 在 一 篇 论文 中 的 多 次 使 用 只 统计 为 一 
WN 各 项 指标 的 具体 分 析 内 容 包 括 :QD 时 间 分 布 :通过 
对 六 献 数量 及 使 用 数据 集 次 数 的 年 度 变化 趋势 进行 统 
计 : 分 析 二 者 随时 间 的 变化 规律 ;@ 文 献 类 型 :使 用 数 
气 售 的 文献 类 型 除 研究 论文 和 综述 以 外 ,还 包括 报告 、 
简报 评论 等 类 型 ,对 文献 类 型 进行 统计 分 析 , 发 现 各 
类 型 文献 在 数据 集 使 用 上 的 特征 规律 ;@ 学 科 分 布 :从 
刊 安 期 刊 所 属 学 科 领 域 角度 ,探索 不 同学 科 领 域 在 数据 
使 用 方面 的 需求 差异 ;@ 高 频数 据 集 :按照 使 用 某 一 数 
据 集 的 论文 篇 数 排序 ,分 析 高 频 使 用 数据 集 的 特征 ,分 
析 学 科研 究 热点 及 科研 人 员 使 用 数据 集 的 习惯 和 偏好 。 
2.4 内容 分 析 指 标 

内 容 分 析 利用 数据 集 在 文献 中 提 及 和 使 用 的 详细 


450 000 
400 000 


pem 文献 数量 eoe 数据 集 使 用 量 


数据 集 使 用 量 /次 


言 息 作为 间接 指标 进行 使 用 特征 分 析 , 包 括 使 用 强度 、 
使 用 章节 和 使 用 位 置 。 内 容 分 析 采 用 CountX 方 
法 “ ,将 某 一 数据 集 在 一 篇 论文 中 出 现 的 使 用 记录 全 
部 纳入 分 析 。 各 项 指标 的 具体 说 明 如 表 3 所 示 , 分 析 
内 容 包 括 :Q@ 使 用 强度 :采用 篇 均 使 用 次 数 作为 使 用 强 
度 , 对 数据 集 在 论文 中 的 影响 力 进 行 评估 ;@ 使 用 章 
节 : 将 数据 使 用 按照 章节 类 型 详细 划分 5 个 部 分 ,比较 
分 析 数 据 集 在 论文 不 同 章节 的 使 用 情况 ;@@ 使 用 位 置 : 
较为 常见 的 数据 使 用 位 置 为 正文 中 的 文字 描述 、 表 格 
列 出 、 图 片 说 明 等 方式 ,本 文采 用 8 种 数据 使 用 和 呈现 
位 置 , 比 较 分 析 数 据 集 在 论文 中 的 使 用 特征 。 
表 3 数据 集 使 用 的 内 容 分 析 指 标 分 类 说 明 


分 析 指 标 类 别 或 计算 方法 
使 用 强度 某 个 数据 集 总 使 用 次 数 /使 用 该 数据 集 的 论文 数 
使 用 音节 摘要 .引言 .数据 和 方法 .结果 与 讨论 结论 
使 用 位 置 正文 .表格 .图片 .参考 文献 致谢、 附录 脚注 、 注 释 
3 ”结果 分 析 
3.1 计量 分 析 结 果 
3.1.1 时 间 分 布 


1998—2021 年 ,生物 医学 领域 共有 162 200 篇 文 
献 使 用 了 435 920 条 数据 集 ,文献 数量 和 数据 集 使 用 量 
年 度 分 布 如 图 2 所 示 。2006 年 以 后 , 随 着 科研 范式 的 
转变 以 及 生物 信息 学 、 医 学 信息 学 等 数据 驱动 型 学 科 
的 兴起 ,使 用 数据 集 的 文献 以 及 数据 集 的 使 用 数量 都 
开始 呈 急 剧 增长 的 态势 。 文 献 数 量 从 2006 年 的 724 
篇 到 2020 年 的 27 279 篇 ,年 均 增 长 率 达 到 35. 596 。 
数据 集 的 使 用 次 数 从 2006 年 的 24 783 次 到 2020 年 的 
400 320 次 ,年 均 增 长 率 达 到 31.5% 。 科 学 数据 的 共享 
和 重用 正在 深度 影响 着 生物 医学 相关 科研 领域 的 发 
展 ,尤其 是 在 近 10 年 期 间 为 生物 医学 开启 了 加 新 的 发 
展 阶段 。 


文献 数量 /篇 


2 生物 医学 领域 使 用 数据 集 文献 及 数据 集 使 用 次 数 年 度 分 布 情况 
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3.1.2 文献 类 型 

统计 发 现 有 数据 集 使 用 行为 且 标 注 了 类 型 的 文献 
共 29 种 ,按照 各 文献 类 型 数量 排序 分 别 为 :研究 性 论 
文人 简报 综述、 案例 报告 .其 他 、 数 据 论文 .通讯 更正、 
产品 综述 摘要 方法 论文 社论 .系统 综述 、 报 告 .文章 
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评论 .讨论 .会议 报告 MAH EI UN oe Ar BUT E 
节 文 章 .关注 声明 .回复 书评、 研究 快报 、 描 述 .新闻 。 
其 中 ,研究 性 论文 约 占 文献 总 量 的 92% ,各 种 类 型 文 
献 数量 分 布 如 图 3 所 示 : 
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图 3 有 数据 集 使 用 行为 的 各 种 类 型 文献 数量 分 布 情况 
献 类 型 年 度 发 文 量 分 布 如 图 4 Bro: 


除 人 研究 性 论文 外 ,其 余 7 种 使 用 数据 集 较 多 的 文 
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4 7 种 使 用 数据 集 较 多 的 文献 类 型 年 度 发 文 量 分 布 情 况 


由 图 4 可 知 , 除 研究 性 论文 外 ,最 早 使 用 数据 集 的 
文献 类 型 是 2004. 年 的 两 篇 产品 综述 ,分 别 使 用 了 Ref- 
Seq 和 CDD 的 数据 集 用 于 基因 数据 库 构 建 和 各 白质 特 
异性 比 对 排序 软件 的 开发 测试 ”。 随 后 ,科学 数据 
集 开始 在 简报 、 综 述 和 案例 报告 等 类 型 的 文献 中 被 使 
用 ,尤其 是 综述 文献 对 数据 集 的 使 用 逐年 平稳 增长 ,说 
明 数 据 集 已 经 成 为 一 种 参与 到 学 科 发 展 历程 的 科研 资 
料 被 回顾 和 使 用 。 此 外 ,2014 年 开始 出 现 的 数据 论文 
也 增长 迅速 ,数据 论文 作为 一 种 新 型 学 术 出 版 物 形式 ， 
主要 用 于 描述 数据 结构 数据 处 理 方法 数据 可 重用 性 
等 内 容 , 数 据 论文 的 出 现 和 发 展 正在 积极 促进 着 科学 
数据 的 开发 和 利用 ” 。 

3.1.3 SERIA fn 
存在 数据 集 使 用 的 文献 共 发 表 在 3 127 种 期 刊 


上 ,发 文 量 最 多 的 期 刊 为 《PLOS ONE) ,共有 20 931 篇 
文献 存在 对 数据 集 的 使 用 。 为 使 研究 具备 广泛 覆盖 性 
并 加 强 分 析 结 果 的 可 解释 性 ,本 文 排除 了 发 文 量 较 少 
的 期 刊 , 共 得 到 229 个 发 文 量 在 100 篇 以 上 的 期 刊 ,总 
发 文 量 为 131 359 篇 , 约 占 文 献 总 量 的 81% 。 本 文 以 
中 国 科学 院 文献 情报 中 心 2019 年 期 刊 分 区 表 为 参 
考 ” ,研究 并 评估 前 229 名 期 刊 的 研究 领域 及 影响 
力 。 经 过 统计 发 现 ,其 中 共有 181 本 SCI 期 刊 ,Q1 和 
Q2 期 刊 共 120 本 , 占 全 部 SCI 期 刊 的 66% 。 学 科 分 布 
及 分 区 见 图 5, 

从 学 科 分 布 来 看 ,生物 学 领域 期 刊 数量 占 比 
5696 ,生物 化 学 与 分 子 生物 学 、 遗 传 学 、 细 胞 生物 学 等 
领域 期 刊 对 科学 数据 集 的 使 用 最 为 频繁 。 在 医学 领 
域 , 研 究 与 实验 .肿瘤 学 .精神 科学 等 领域 期 刊 较 多 ,是 
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图 5 期 刊 所 属 学 科 分 布 及 分 区 情况 
医学 领域 使 用 科学 数据 集 较 多 的 学 科 。 同 时 ,结果 中 7996 。 以 数据 集 使 用 次 数 为 X 轴 , 数 据 集 个 数 Y 轴 , 可 


还 出 现 了 综合 学 科 、 食 品 科学 和 农林 科学 等 学 科 , 体 现 
了 种 学 数据 集 使 用 的 交叉 性 和 跨 学 科 性 。 
3. ir 4 高 频数 据 集 

-对 数据 集 使 用 次 数 进行 统计 并 排序 后 发 现 ,使 用 
"7" 的 数据 集 数量 为 346 115 条 , 占 全 部 数据 集 的 
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DD 对 使 用 次 数 排名 前 前 20 的 高 频数 据 集 进行 详细 分 

析 , 如 表 4 所 示 。 其 中 ,有 5 条 数据 集 来 自 GEO 数据 
Vg ,其余 15 条 数据 集 虱 来 自 RefSeq 数据 库 。 使 用 次 数 
最 多 的 “GPL570” 数据 集 是 由 Affymetrix 公司 提供 的 商 
业 数 据 集 , 该 公司 是 美国 著名 的 生物 芯片 公司 ,其 余 4 
条 GEO Zr fe dos d BLA HEU ros MSS 


以 得 到 图 6 的 原始 坐标 及 双 对 数 坐 标 下 的 二 者 关系 图 。 

对 其 进行 一 元 线性 回归 后 得 到 :log( 数据 集 个 数 ) =4. 59 

-1.91 log( 数 据 集 使 用 次 数 ) ,R 的 值 为 0. 88, 两 者 呈 

现 出 明显 的 线性 关系 。 结 采 表 明 ,大 量 数 据 集 只 得 到 了 
很 少 使 用 ,而 少数 的 数据 集 得 到 了 大 量 使 用 。 


OQ -= Fn € Ro ou p 


log( 数 据 集 个 数 ) 


2 
log( 数 据 集 使 用 次 数 ) 
(b) 


1.5 


图 6 数据 集 个 数 和 数据 集 使 用 次 数 关 系 


集 的 人 研究 内 容 和 对 和 象 来 看 ,围绕 肿瘤 研究 的 数据 集 有 

5 条 ,人 研究 肌 动 重 日 功能 、 人 类 基因 组 ,3 -磷酸 甘油 醛 
脱氧 酶 的 数据 集 各 3 条 ,其余 数据 集 与 白介素 、 结 核 分 
收 杆 阔 .大肠 杆 阔 以 及 新 冠 病 毒 的 研究 相关 ,从 数据 集 
使 用 频次 可 以 更 直观 地 体现 出 学 科 人 研究 的 热点 和 
焦点 


vAN O 


表 4 使 用 次 数 前 20 名 的 高 频数 据 集 


排序 数据 集 物种 次 数 排序 数据 集 物种 次 数 
1 GPL570 人 类 1 635 11 NC_012920 人 类 546 
2 NM. 002046 人 类 1 288 12 NM_013693 小 鼠 507 
3 NM_001101 人 类 1 001 13 NC. 000962 结核 杆菌 465 
4 NM. 007393 小 鼠 873 14 NM_000546 人 类 454 
5 NC_000913 KIT 847 15 NM. 008361 小 鼠 416 
6 GPL96 人 类 708 16 NM_031168 小 鼠 402 
7 NM_008084 小 鼠 705 17 GSE31210 人 类 395 
8 NM_017008 大 鼠 652 18 GSE14520 人 类 384 
9 NC_045512 新 冠 病毒 627 19 GSE2034 人 类 366 
10 NM. 031144 大 鼠 610 20 NM. 000600 人 类 344 
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3.2 内容 分 析 结 果 
3.2.1 使 用 强度 

传统 使 用 频次 仅 能 表明 数据 集 在 论文 中 是 否 出 
现 , 就 一 篇 论文 而 言 ,数据 集 A 在 论文 中 被 反复 使 用 多 
次 ,而 数据 集 B 在 论文 只 被 使 用 一 次 , 则 数据 集 A 对 
于 该 文章 的 影响 力 应 高 于 数据 集 B, 因 此 本 文采 用 使 
用 强度 分 析 数 据 集 在 文献 中 的 使 用 特征 及 影响 力 。 从 


使 用 强度 
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777V1 


CO pg 7 可 以 看 出 ,生物 医学 领域 的 科学 数据 集合 
度 大 多 分 布 在 1 -6 之 间 。 其 中 ,使 用 强度 2 -3 
过 同 的 最 多 ,其 次 是 1.5 - 6.1 -2 这 几 个 区 间 。 这 与 
座 喝 引用 有 着 较为 明显 的 区 别 , 相 比较 而 言 ,科学 数据 
集 咯 现 较 多 高 使 用 强度 的 现象 ,表明 一 条 数据 集 在 论 
奖 晶 会 被 反复 使 用 ,贯穿 研究 的 全 过 程 。 

3.92 使 用 章节 

> 学 术 论文 各 章节 的 重要 性 不 同 ,因此 在 不 同 章节 
E 本 文 结合 实证 
性 研究 论文 IMRDC 结构 将 章节 划分 为 5 个 部 分 ”, 包 
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结果 与 讨论 
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图 8 


由 图 8 可 知 ,生物 医学 领域 49% 的 数据 集 在 “ 数 
据 和 方法 ”部 分 被 使 用 ,其 次 是 “结果 与 讨论 ”部 分 。 
“摘要 ”部 分 是 对 人 研究 目的 、 方 法 、 结 有 果 和 绪论 的 概述 ， 
由 于 篇 幅 问 题 ,对 于 所 使 用 的 数据 不 会 有 过 多 阐述 ; 
“引言 "部 分 会 对 使 用 的 方法 和 数据 集 进 行 简 单 的 彰 
景 介绍 ,因此 会 有 一 定 频 次 的 数据 集 使 用 ;“ 数据 和 方 


80 000 


计算 结果 来 看 ,来 自 RefSeq 数据 库 的 数据 集 “ NR_ 
033736” 被 一 篇 文献 使 用 了 768 次 ,成 为 使 用 强度 最 大 
的 数据 集 ”。 根 据 数据 使 用 总 体 情况 ,本 文 将 科学 数 
据 集 使 用 强度 划分 为 11 个 区 间 ,结果 如 图 7 所 示 。 其 
中 “1” 表 示 数 据 集 在 所 有 使 用 该 数据 集 的 文献 中 平均 
被 使 用 1 次 ,而 “1 -2” 则 表示 使 用 强度 大 于 1 小 于 等 
于 2, 以 比 类 椎 。 
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7 数据 集 使 用 强度 分 布 


括 摘要 引言、 数据 和 方法 .结果 与 讨论 .结论 。 对 于 在 
附录 中 列 出 的 表格 和 图 片 , 通 过 “id ”标记 可 获取 其 在 
正文 中 的 使 用 位 置 , 并 将 其 划分 到 对 应 的 章节 。 对 于 
非 研 究 性 论文 如 数据 论文 产品 综述 等 文献 类 型 ,个 别 
章节 无 法 对 应 划分 到 这 5 个 草 节 , 则 通过 人 工 判读 将 
其 划分 到 功能 或 位 置 相近 的 章节 。 因 为 出 现 这 种 情况 
的 文献 比例 较 小 ,对 分 析 结 果 不 会 产生 太 多 影响 ,因此 
实在 无 法 划分 的 则 排除 统计 范围 之 外 。 使 用 章节 分 布 
结果 如 图 8 所 示 : 


引言 
sme | 3% 


。 数据 和 方法 
.结果 与 讨论 
COBRE | 结论 
49% | 


数据 集 使 用 章 市 分 布 


法 ”和 “结果 与 讨论 ”部 分 主要 围绕 数据 进行 实验 分 析 
和 结果 解读 ,因此 是 使 用 数据 集 最 多 的 两 个 部 分 , 约 
9596 的 数据 集 使 用 都 出 现在 这 两 个 章节 和 结论 ”部 分 
会 对 全 文大 致 流程 和 结果 进行 简要 总 结 并 对 未 来 工作 
进行 设想 ,对 于 具体 数据 集 使 用 方面 的 描述 较 少 。 总 
体 来 看 ,使 用 数据 集 使 用 的 章节 分 布 呈 现 出 极度 不 平 
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衡 性 ,这 与 生物 医学 领域 文献 注重 实证 分 析 和 结果 解 
读 有 关 , 并 且 充 分 说 明科 学 数据 集 对 于 该 领域 研究 的 
重要 性 和 影响 力 。 
3.2.3 使 用 位 置 


与 数据 集 使 用 章节 类 似 , 通 过 不 同位 置 使 用 的 数 
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来 说 ,表格 和 图 片 的 信息 同 正文 具备 同样 的 重要 性 ,在 
椎 治 研究 中 应 重视 表格 和 图 片 数据 的 识别 和 利用 。 此 
外 注释 附录、 致谢 部 分 也 部 分 存在 数据 集 的 使 用 。 
最 汶 值 得 注意 的 是 参考 文献 中 使 用 的 数据 集 只 占 数 据 
集 使 用 总 量 的 0.04% ,这 种 情况 说 明 在 文献 中 被 正式 
1 是 的 数据 集 还 较 少 ,科学 数据 集 的 正式 引用 问题 应 
得 到 更 多 的 关注 。 


LE 


由 前 文 的 研究 结果 可 以 得 出 如 下 结论 : 

(1) 科 学 数据 集 对 生物 医学 领域 科研 产生 的 影响 
力 与 日 俱 增 。 基 于 论文 数 和 基于 使 用 强度 的 统计 可 以 
分 别 代 表 科学 数据 集 使 用 的 广度 和 深度 。 可 以 设想 ， 
一 条 数据 集 的 影响 范围 越 广 , 提 及 该 数据 集 的 论文 数 
就 会 越 多 。 因 此 , 相 比 较 而 言 数 据 集 的 使 用 广度 更 能 
代表 其 产生 的 实际 影响 力 ,而 近 10 余年 使 用 科学 数据 
集 论文 数量 的 急剧 增长 ,说 明 数 据 集 对 生物 医学 领域 
科研 产生 的 影响 力 正在 与 日 俱 增 。 同 时 ,数据 集 的 使 
用 强度 从 另 一 个 角度 揭示 了 科学 数据 集 独 特 的 使 用 特 
征 。 本 文 研究 发 现 ,科学 数据 集 的 使 用 强度 要 明显 高 
于 论文 3. 图书" 等 被 引 强度 ,说 明科 学 数据 集 在 论 
文中 较 少 被 当 作 引言 或 背景 综述 提 及 ,而 更 多 的 是 被 
实际 使 用 ,与 论文 研究 结果 紧密 相关 。 

(2) 数 据 出 版 和 高 水 平 期 刊 促进 了 科学 数据 集 的 
开放 和 共享 。 从 使 用 科学 数据 集 的 文献 类 型 和 学 科 分 
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据 集 重要 性 和 影响 力也 不 同 。 本 文 将 使 用 位 置 分 为 正 
XC 表格、 图片 参考 文献 致谢、 附录、 脚注 ,注释 8 种 ， 
正文 包括 出 现在 标题 .摘要 和 正文 中 的 数据 集 。 使 用 
位 置 分 布 结果 如 图 9 所 示 : 


> 9 ”数据 集 使 用 位 置 分 布 


布 可 以 看 出 ,科学 数据 集 正 在 逐渐 脱离 论文 ,成 为 一 种 
独立 的 科研 资料 ,在 科学 交流 过 程 中 发 挥 着 关键 作用 。 
目前 ,数据 出 版 的 发 展 促进 了 科学 数据 集 的 开放 和 共 
译 , 和 常见 的 数据 出 版 模式 包括 数据 仓储 、 数 据 期 刊 、 数 
据 与 论文 联合 出 版 3 种 形式 ,尤其 是 数据 期 刊 的 出 现 ， 
使 得 数据 论文 已 经 成 为 近年 来 发 展 最 为 迅速 的 科学 数 
据 发 布 载体 ,科学 数据 正式 成 为 一 种 可 评 佑 \ 可 计量 的 
科研 成 果 产 出 。 从 使 用 数据 集 论文 的 学 科 分 布 上 看 ， 
生物 医学 领域 对 于 数据 集 的 使 用 非常 广泛 ,数据 集 产 
生 的 影响 力 正在 向 综合 和 交叉 学 科 领 域 扩展 。 在 进 一 
步 对 其 中 的 Q1 区 期 刊 的 详细 调查 中 发 现 ,51 个 Q1 区 
期 刊 全 部 部 在 作者 说 明 或 投稿 指南 中 详细 说 明了 数据 
集 的 提交 要 求 和 提交 办 法 ,高 水 平 期 刊 在 开放 数据 方 
面 的 举措 无 疑 加 快 了 数据 的 共享 与 重用 ,推动 了 科研 
的 发 展 与 进步 。 

(3) 科 学 数据 使 用 集中 在 论文 的 后 半 部 分 且 正 式 
引用 较 少 。 从 科学 数据 集 的 使 用 章节 和 使 用 方式 可 以 
看 出 ,科学 数据 集 出 现 最 多 的 方式 是 通过 表格 列 出 ,其 
次 是 正文 中 提 及 ,在 科学 数据 集 使 用 的 相关 研究 中 应 
注意 表格 和 图 片 数据 的 挖 气 和 利用 。 而 出 现 最 多 的 章 
节 分 别 是 "数据 和 方法 ”结果 与 讨论 ,这 同样 与 论 
文 .图 书 等 通常 被 引用 在 “引言 ”部 分 有 着 明 显 区 
3 ^ ”。 通 过 结果 对 比 可 以 发 现 ,不 同 于 其 他 领域 ， 
生物 医学 论文 在 “结果 与 讨论 ”部 分 引用 论文 及 使 用 
数据 集 都 较为 频繁 ,说 明 这 一 部 分 是 生物 医学 论文 中 
最 为 重要 的 部 分 ,生物 医学 领域 约 有 95% 的 数据 集 使 
用 都 发 生 在 论文 的 后 半 部 分 。 参 考 文 献 部 分 出 现 的 被 
正式 引用 的 科学 数据 集 比例 还 较 小 ,说 明科 学 数据 集 
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在 论文 中 仍然 以 提 及 等 非 正 式 引 用 方式 进行 列 出 或 标 
注 , 这 一 方面 说 明生 物 医学 研究 中 涉及 的 数据 集 数 量 
较 多 ,无 法 通过 参考 文献 一 一 列 出 。 为 一 方面 也 说 明 
TUS IE SX S LRL AH PARE RU T E ,数据 规范 引用 
对 于 增强 数据 价值 ,提高 科研 人 员 共 享 和 重用 数据 的 
积极 性 都 具有 十 分 重要 的 现实 意义 。 


5 总 结 


本 研究 以 生物 医学 领域 科学 数据 集 为 研究 对 象 ， 
通过 时 间 分 布 .文献 类 型 ,学科 分 布 和 高 频数 据 集 等 方 
面 的 计量 分 析 ,利用 数据 集 及 使 用 数据 集 文献 的 直接 
指标 进行 使 用 特征 分 析 , 揭 示 数 据 集 在 整个 生物 医学 
领域 的 使 用 特征 规律 及 产生 的 影响 力 ;通过 使 用 强度 、 
合用 音节、 使 用 位 置 等 方面 的 全 文本 内 容 分 析 , 利 用 数 
据 集 在 文献 中 提 及 和 使 用 的 详细 信息 作为 间接 指标 进 
行使 用 特征 分 析 , 从 而 揭示 科学 数据 集 在 具体 文献 中 
的 使 用 特征 及 其 产生 的 直接 和 间接 影响 力 。 同 前 人 的 
古物 相 比 ,本 研究 从 宏观 和 微观 两 个 层面 进行 分 析 考 
量 3 和 赋 究 角 度 更 加 全 面 ,所 得 结 末 也 更 加 完备 可 靠 , 可 
VIZ REFUS E PURUS DTE SE BEA E IKE. Ho, 
要 进一步 推进 科学 数据 引用 标准 规范 的 建立 ,提高 科 
尝 煞 据 库 对 于 唯一 标识 符 、 版 本 号 的 分 配 和 管理 ,规范 
的 数据 引用 对 于 提高 科研 工作 者 的 数据 引用 意识 、 追 
溯 数 据 使 用 情况 部 具有 非常 重要 的 意义 ;其 次 ,科学 数 
据 库 建 设 要 具备 专业 性 、 及 时 性 和 开放 性 ,专业 性 的 数 
据 库 具备 更 强 的 吸引 力 ,数据 要 由 专业 运 维 团 队 及 同 
行 评议 专家 进行 及 时 更 新 维护 ,通过 多 渠道 资金 优化 
配 镜 保证 数据 的 免费 和 开放 访问 是 科学 数据 库 长 远 建 
设 发 展 的 保证 ;最 后 ,高 校 和 图 书馆 要 加 强 科学 数据 人 
才 培 养 ,包括 数据 管理 研究 型 人 才 数据 分 析 型 人 才 、 
数据 监管 型 人 才 等 ,满足 飞速 发 展 的 科学 数据 管理 和 
服务 需求 。 

当然 ,本 文 研究 也 存在 着 一 些 不 足 : 一 方面 ,由 于 
科学 数据 集 识别 和 抽取 方法 的 局 限 , 本 文 只 针对 NCBI 
旗下 登录 号 较为 规范 的 5 个 数据 库 中 的 科学 数据 集 进 
行 抽取 和 研究 ,研究 范围 存在 一 定局 限 性 ; 另 一 方面 ， 
本 文 只 从 论文 角度 进行 研究 和 分 析 , RRA R AE 
集 的 元 数据 和 内 容 信息 ,并 且 将 数据 集 的 提 及 等 同 于 
使 用 ,而 并 未 对 数据 集 的 使 用 意图 进行 进一步 研究 和 
划分 ,揭示 层次 还 较 浅 ,分 析 深 度 还 有 待 进一步 加 强 。 
在 今后 工作 中 ,将 继续 提高 科学 数据 集 识 别 的 范围 和 
准确 性 ,从 更 细 粒 度 的 角度 继续 分 析 控 掘 科 学 数据 集 
的 使 用 特征 和 影响 力 。 
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| Purpose/significance | This paper analyzes the use characteristics of scientific datasets from the perspective of 
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Cduantitative analysis and content analysis, quantitatively evaluates the impact of scientific datasets on discipine devel- 
CoBment， and provides references for scientific data management services and policy research. | Method/process | 
CMeéthods of text mining and bibliometric were used to analyze the full ~ text literature in PubMed Central, this study 


comprehensively investigated the use of scientific datasets from 7 aspects such as time distribution and use intensity , 


"and on this basis, evaluated the actual impact of scientific datasets on discipline development. | Result/conclusion | 
Mhe research results show that the influence of scientific datasets on scientific research in the biomedical field is in- 
.creasing with each passing day. Data publishing and high - level journals promote the opening and sharing of scientif- 
datasets. The use of scientific datasets 1s concentrated in the second half of the paper and there are few formal ref- 
erences. The corresponding standards and specifications need to be further strengthened. 
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